Trích dữ liệu trong PDF
Lọc SĐT¶
- Tách PDF thành các ảnh rời:
 
- (Thủ công) Kiếm các ảnh chỉ có sđt. Bật view largest lên để tìm cho dễ
- 
Chạy script PowerShell sau: 
 # Đọc OCR từ các ảnh $i = 1 Get-ChildItem | ForEach-Object { $basename = $_.basename $count = $i.toString('D3') $filename = "$count$basename" $filename tesseract $_.name $filename $i++ } # Chỉ lọc đúng dòng có sđt và gom lại vào một file select-string -path *.txt -pattern '\d+-\d+-\d+' | add-content final.txt Notepad++ final.txt
- 
(Thủ công) Kiểm tra lần cuối và dùng regex để tạo kết quả